视觉编码
Pixtral 12B
Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型,能够同时处理图像和文本数据。该模型包含120亿参数,大小约为24GB,基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力,能够执行图像描述生成、统计照片中的物体数量等任务,并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源,用户可以自由下载和微调该模型。应用场景广泛,包括
Pixtral Large
Pixtral Large是一款由Mistral AI开源的超大规模多模态模型,具备1240亿参数,支持文本、图像和图表的理解与生成。它拥有128K的上下文窗口,能在多语言环境中处理复杂文档和多图像场景,广泛应用于教育、医疗、客服和内容审核等领域。